隨著大數據一詞的流行資料視覺化再度被人們討論,其實資料視覺化在台灣20年前就在發展了,而資料視覺化其實每天都出現在我們的身邊,如常條圖、圓餅圖、流程圖、渲染圖、報告中的統計圖、Google Map都是資料視覺化的表現,以比較學理的講法資料空間轉換成圖形空間。
舉一個例子以政府資料公開平台民眾中通報1999案件數量,經整理後的資料如下圖
從上圖我們可清楚民眾通報的案件類型,其它就看到一堆數字,當然聰明的我們當然知道這些數字就是民眾所通報的案件數,然後......嗯......就不是很清楚了,但我們繪製成下圖
透過上圖我就知道民中經常通報三種案件類型,包含黃色線的道路維修、綠色線的髒亂及汙染、橘色線的交通運輸,是民眾報案數最多類型的案件,其中我們可以看到黃色線的道路維修在3月份民眾通報案件數就逐漸攀高,到7月及8月通報案件數達到高峰,在市府的積極維修下,從9月份通報數逐漸下修。
所以透過上圖我們是不是可以給出政府一點建議,在市政上必須著重道路維護、髒亂及汙染、交通運輸,這三者類型案件管理必須加強藉以提升施政滿意度;第二點從上圖可明確呈現每一類型的案件都有減少的趨勢,也代表該市政府市有在做事的。
這就是資料視覺化的能力,所以學者John Tukey說到與其他任何設備相比,簡單的圖形為資料分析師帶來了更多的資訊。
在R資料視覺化採用ggplot2的套件,當然R的核心中也有繪圖的能力但劃出來的圖形都很醜,各位可自行上網了解,所以使用R做資料分析幾乎都使用ggplot2的套件。
1.首先安裝ggplot2套件開啟RStudio並點選下圖
2.按下Install Package出現下圖輸入ggplot2
3.在下方的Console會出現安裝進度,RStudio有點奇怪完成安裝或成功都會出現紅色的字,錯誤也出現紅色的字,所以你必須看訊息,因為在其它開發介面只有錯誤才出現紅色的字,剛開始有點不適應。
4.開新檔你可以從File下拉選單中開新檔,也可從HotKey為Ctrl+Shift+N即可開出新檔
5.呼叫ggplot在新檔中輸入library(ggplot)後面Alt+Enter,即可執行該指令,注意游標必須在該行指令,R才能判斷是執行哪一行指令。
寫到這邊!還真的有點累!前置作業差不多,讓我們開始首先下載資料集,如下網址
https://github.com/YuJoe1215/Ironman-Challenge.git
在開始前不要急著寫程式,我以前也是如此囫圇吞棗,我們必須了它的資料集定義,對於資料科學而言欄位是很重要的資訊,對於我們了解該資料集的第一步重要資訊,在學習的過程中發現有很多不同的名詞,對於資料科學的人變量或變數,對於統計的人說變項,對於學MIS會說欄位,其實都是說同一件事就是欄位,當初被這些名詞搞得霧煞煞.......
而為什麼一開始選擇鐵達尼資料集,因為大家都有看過電影,因此對於該資料集有一定的認識,也最好上手所以很多範例都以鐵達尼做起手式,只不過大家說明以不同的角度做切入,因此這對於後續的資料分析是很有幫助。也可快速進入資料科學探索的領域中,下圖為該資料集的
欄位說明
下一篇實際進入對鐵達尼資料集的分析,藉由這些資料還原看到人性的光輝